AI资讯新闻榜单内容搜索- AI

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索:  AI
声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

语音恐怖谷是指在语音合成技术中,当 AI 合成语音接近人类的真实语音,但又存在细微的不自然或不完美之处时,会引发人类的不适感。

来自主题: AI技术研报
10150 点击    2025-03-16 15:29
AI进入推理模型时代,一文带你读懂思维链

AI进入推理模型时代,一文带你读懂思维链

AI进入推理模型时代,一文带你读懂思维链

近段时间,推理模型 DeepSeek R1 可说是 AI 领域的头号话题。用过的都知道,该模型在输出最终回答之前,会先输出一段思维链内容。这样做可以提升最终答案的准确性。

来自主题: AI技术研报
9837 点击    2025-03-16 14:53
人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

人类秒懂,AI却懵圈:VLM²-Bench揭示视觉语言模型「视觉关联」能力短板

当前,视觉语言模型(VLMs)的能力边界不断被突破,但大多数评测基准仍聚焦于复杂知识推理或专业场景。本文提出全新视角:如果一项能力对人类而言是 “无需思考” 的本能,但对 AI 却是巨大挑战,它是否才是 VLMs 亟待突破的核心瓶颈?

来自主题: AI技术研报
7902 点击    2025-03-15 15:05
CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

CVPR 2025 | VAST和北航开源MIDI,从单张图像端到端生成三维组合场景

在 Sora 引爆世界模型技术革命的当下,3D 场景作为物理世界的数字基座,正成为构建动态可交互 AI 系统的关键基础设施。当前,单张图像生成三维资产的技术突破,已为三维内容生产提供了 "从想象到三维" 的原子能力。

来自主题: AI技术研报
9155 点击    2025-03-14 15:40
OpenAI 提案要求禁用 DeepSeek,呼吁打压中国 AI,彻底暴露双标本质

OpenAI 提案要求禁用 DeepSeek,呼吁打压中国 AI,彻底暴露双标本质

OpenAI 提案要求禁用 DeepSeek,呼吁打压中国 AI,彻底暴露双标本质

据外媒 TechCrunch 报道,OpenAI 近日在一项新的政策提案中,将 DeepSeek 描述为被官方资助和控制的实体,并呼吁对该机构及类似机构开发的中国 AI 模型实施禁令。OpenAI 在提案中指出:「虽然目前美国在 AI 领域仍保持领先,但 DeepSeek 的出现表明,这一领先优势并不大,且正在缩小。」

来自主题: AI监管政策
13797 点击    2025-03-14 10:26